竹间智能创始人简仁贤:挖掘人机交互背后的商业价值
全球机器智能峰会( GMIS 2017 ),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。
在 5 月 28 日下午的「人工智能产品与应用」Session 中,竹间智能科技创始人、CEO简仁贤先生分享了《人机对话:从猜测、概率到理解》的主题演讲。
整理 | 编辑部
演讲嘉宾 | 简仁贤
核心要点:
人工智能最大的使命是,产生对商业有用的应用,将技术转化成商业价值,获得经济回报,有了经济回报,再将资本投入研究界、技术界。
我们通常说语音交互,其实语音不是交互,语言才是交互,没有语言不是交互,没有表情不是交互,没有肢体不是交互。
通过对话可以理解用户,建立用户画像,洞察用户需求和行业趋势。
以下是该演讲的主要内容:
在我看来,人工智能最大的使命是,产生对商业有用的应用,将技术转化成商业价值,获得经济回报,有了经济回报,再将资本投入研究界、技术界。
我们公司做人机交互,不是问答系统,也不是聊天机器人,更不是搜索式问答。那么,我们的人机交互技术如何突破,产生高价值的商业,从而落地?
我想探讨的第一点:语义理解。从概率模型、NLP ,再到今天的深度学习,我们是如何突破的呢?
首先,大家看到很多人工智能在作诗,作诗的过程是一个 one way communication 的过程。现在有 NLP、概率模型,只要数据够、算法对肯定可以作诗。但问题是语义理解有什么不同呢?我把它分解成三个层次。
层次一:关键词,对词的理解和匹配,找出来语意是什么意思,这是最浅层次的。
层次二:结合上下文(所谓的语境还有情境),把上下文贯穿起来,让整个对话流畅、有意义。
层次三:能够理解对话时候的言外之意。什么叫言外之意?比如,我问人民广场怎么走?北京东城怎么走?这些是信息提问。问我今天帅不帅?这是观点提问。这些能不能理解呢?更上层的语义能不能理解?还有现在我讲这句话的情感。如果我对你骂了几句话,通常人是不会记得文字的内容,他只记得你在骂我,你对我不满了。
所以情感、情绪的理解在交互过程当中是相当重要的,无情感就不智能。
自然语言理解是整个交互过程、对话过程当中最重要的,自然语言理解应该要避免的是两个坑:
第一个坑:具有概率性的对话(众多的语料、大量的数据),根据词跟词之间出现的频率,以及根据句跟句之间出现的频率,来做概率的猜测。语言学的结构是无法迁移到这样的模型的。
第二个坑:不懂语意的模式识别。我们很久以前就用模块、模组等,这是不讲语意的,应该避免。
如何做到呢?我觉得方向有四个:
第一个方向:符号主义和连接主义的合作统一。
如何把两个不同的技术方式结合,才能够达到语意理解的最佳的、最合格的状态呢?以前在 NLP 的时代,通常会有语言学领域的人,认为不需要深度学习,你一定要了解语言结构。等我们有了数据、运算力、算法之后,我们已经排除语言学的结构和语法结构,只专注于深度学习这个大黑盒子。
第二个方向:从静态分析走向交互。
语言理解跟语言处理、图象处理不太一样,图象本身是静态的。对话是动态的对话,这个是无法在黑盒子里面就可以找出共通率的。有一些聊天机器人用概率式的方法来产生一种对话,很好玩儿。这都是一些惊喜,但如果是商业的应用,这是不可靠的,是没有商业价值的。
第三个方向:从前层语意走向深层语意。
没有理解意图、没有情绪情感是无法理解的。
第四个方向:从功能主义走向认知和情感体验。
我们太专注于概率的计算,而没有去真正理解语境跟情境、上下文之间的关系,这种对话效果,无法产生高价值。
我们在过去一年半,探索、突破了这些方面:
认知智能和情感智能。大家都在说认知智能,我们如何实现,必须要用众多的不同方法和理论,还有加上实际的应用与实际的商业数据才有办法落实。
那为什么理解这么难呢?比如这句话:我深深地爱着我妈,再比如这句话:我有一些担心。这两句话看起来很容易理解,却是不可控的,要可控就是必须把语言结构学、语言学、认知学,再加上深度学习、机器学习各个不同的模型,做成可控式的对话,并把所有的对话串联起来,而不是套路式、模板式、随机式的对话。
我们一些算法的模型是这样的,人脑是一个大的黑盒子,拆成众多个、数十个不同的小的黑盒子,每一个小的黑盒子再做正确的、适合的计算方式和方法,无论是机器学习还是深度学习,语音学还是结构学,才能够产生出真正的效果,运用到合适的深度学习的方法,而不是一味地为了做深度学习而深度学习,为了做机器学习而做机器学习。
数据越大、越多当然越好,但是数据如果不适合,跟算法不配合,效果也不是最好的。所以根据不同的效果,我们如何能够把这个算法做到最好,这就是我们一直在探讨的方向。
人机交互要做到双向,必须要有三个结构。
第一,理解。
第二,决策。
第三,反馈。
理解是最重要的,如果不理解,决策一定会错,决策如果对了,那是撞到了运气的,如果不理解,反馈也会错。要怎么理解呢?两个非常重大的因素。
第一,意图的理解。
第二,情感程序的理解。
这是非常重要的一个理解,没有办法理解,决策和反馈一定做不好。
然后是反馈,如果没有办法理解意图,反馈就是错了。我问到北京车站的方向,还是我在问北京车站今天堵不堵,我的意图是什么?你要在某一种场景给我不同的意图,这才是真的能够做到意图。所以意图是根据场景而不定的。同样是吃,吃饭、吃闭门羹、吃午餐、吃亏,都是吃,如果说按照模式匹配或者是一般的关键词匹配的话,了解不出来语义。
我们讲到情感,其实是希望学界、业界,大家都在做多模式的情感辨识,这是非常重要的。一句话,它可能代表不同的意思、情感,你如何去理解?比如说,你好讨厌,谁在跟谁说你好讨厌?是在商业的场景还是男女朋友的场景?不同的话用不同的语气和表情说出来也是不一样的。所以不同的情感有很大的不同。
我们先在文字上做了 22 种不同情绪的识别,为什么要做这么细呢?因为不同的场景、情境、语境出来的情绪、情感就不一样,如何能够做到最合理化,才有办法达到最好的应用和商业价值,这是我们一直在努力的方向。
其次,如何把交互做到可商业化、有价值?要让它可控,但要基于一个对语言非常好的理解基础上,才可以做到可控的对话。
情感识别、深度学习、机器学习、语言学结合,才能产生可控的对话,那么,如何将可控的对话落地呢?没有落地,这个技术就没有办法往前演进。
可控的对话商业价值在哪里?可以增加用户体验,减少人工成本,更能够开发出各式各样商业的场景。如果说一个商家、商业、服务在跟用户对话的时候,连语义都无法预测,无法知道下一句话讲什么,这就很危险,商业就会受到影响,商业的价值就会受到影响。所以理想的人机对话系统必须要有记忆。
另外,如果没有思想,就无法理解人,理解人、上下文、意图之后,才有办法达到任务达成使命。
做一个 AI ,一个人机交互的系统,做得好,那么你的技术基本上,AI 所有的问题都可以去解决。
我们是一家什么公司呢?做人机交互的公司,我们希望把情感智能加语义理解做到极致,我们希望把情感智能加语义理解对商业、生活能够产生最高的价值。
我们公司在各地都有研发中心,成立了一年半多以来,在技术、商业落地方面也有小小的成绩,但还在突破,还在接受各种挑战。每一次做到不同的应用,就发现更多的挑战和问题,在人机交互里面,它的问题还是很多的。但我们是如何做的呢?
第一,我们做图象识别,但是跟其他图象识别的公司不一样,我们只做情感、情绪的识别。
第二,做语音的部分只做语音的情感程序识别,为了理解情绪的计算,能够让人机交互达到情感理解的能力。
我们是唯一一家能够把三个情绪情感的识别做在同一个里面,让人机交互能够达到最合格、合理、可控的结果。
AI +行业的空间是无限的,每一个技术的突破都会有一个新形态的经济产生。互联网的突破把互联网经济带到另外一个层次;技术商业化的突破把移动经济又建立起来了。未来对话机器人也会产生巨大的价值,对话经济就会由此产生了。比如说像在线客服,客服机器人是非常容易的一个切入点,但是这个是比较简单的一个范畴。
最重要的是如何能够在各个应用上面把人机交互的技术语义、情感的理解,做成最好的应用呢?
第一,我们创造了第一个类脑的对话机器人,在这个平台上,迅速开发出各式各样不同的应用,在各个行业里面迅速落地。
第二,在技术的平台上开发出各式各样不同的应用,语音、图象的程序,都能有各式各样的应用。
对话经济的到来是巨大的、无穷的,这个利益、价值是远远超过App今天可以带给大家的价值。
对话经济产生的前提,我们必须要突破自然语言和语义的理解,突破对人的理解、人机交互的理解,这些还没有突破前,对话经济还没有办法做。
人机对话是推动商业变革的一股力量,2020年会有85%的职能都会由机器人辅助,各行各业也有很多创新,包括整个大的企业,还有国外、国内大家一起来推动这样的应用,慢慢就会做好,这个时间有可能很快。
但是大家要理解为什么对话很重要?它带来什么商业价值?为什么要谈这些?不就是对话吗?不是,透过对话可以提高用户体验,理解用户,建立用户画像,透过用户画像的理解才能够对行业和个人产生洞察,这比简单粗暴更加有用,价值更高。
其实对话只是一个开端,终点是能够用来服务用户、人群、商业。
对话在垂直领域其实有三个阶段,我们在做落地当中总结经验。
第一,集成。商业跟人的沟通是通过 App。
第二,对话交互。我们现在从第二个阶段出发,要往第三个阶段走。
第三,多任务处理阶段。除了交互之外,能不能有其他的方式,这是我们进步的方向。
我们一直探索,如何以拟人化的方式来挖掘对话中的商业机会,这就是我们每天、每人都在想的,如何从对话中挖掘商业的机会。巨大的机会仍然存在,但我们没有全部挖掘出来。所以我们必须要在这个技术的研究上更加坚持。
合格的商业应用需要可控式的对话。人机对话、语义理解、交互能够做到最好的情况下,应用是无穷的,重点还是语义的理解,意图的理解,情感的理解。
我们的愿景是什么?是未来任何一样东西背后都会有一个机器人。
在语义理解方面,希望我们在未来有一个单独的领域,叫做语义理解,理解是重要的,识别是必须,没有理解就无法做决策,没有办法理解就无法做反馈,理解是最重要的,语义理解、对话交互。
语音的部分,很多人讲语音交互,其实语音不是交互,语言才是交互,语音是感知、感官,语言才是交互,没有语言不叫交互,没有表情不叫交互,没有肢体不是交互,语言才是交互,语音不是交互。我希望从今天开始能够跟大家来共同推广这个认知,语言的交互、对话交互、语义的理解是一个产业。